Evolución de las Arquitecturas de MLLM: Desde la visión centrada hasta la integración multi-sensorial

Evolución de las arquitecturas de MLLM

La evolución de los modelos grandes de lenguaje multimodal (MLLM) marca un cambio desde silos específicos de modalidad haciaEspacios de representación unificados, donde las señales no textuales (imágenes, audio, 3D) se traducen en un lenguaje que el modelo de lenguaje puede entender.

1. De la visión a lo multi-sensorial

MLLM tempranos:Se centraron principalmente en Transformadores de Visión (ViT) para tareas de imagen-texto.
Arquitecturas modernas:Integranaudio (por ejemplo, HuBERT, Whisper) ynubes de puntos 3D (por ejemplo, Point-BERT) para lograr una inteligencia verdaderamente cruzada entre modalidades.

2. El puente de proyección

Para conectar diferentes modalidades al modelo de lenguaje, se requiere un puente matemático:

Proyección lineal:Una asignación sencilla utilizada en modelos tempranos como MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$
MLP de múltiples capas:Un enfoque de dos capas (por ejemplo, LLaVA-1.5) que ofrece una mejor alineación de características complejas mediante transformaciones no lineales.
Re-muestreadores/abstractores:Herramientas avanzadas como el re-muestreador Perceiver (Flamingo) o Q-Former que comprimen datos de alta dimensión en tokens de longitud fija.

3. Estrategias de descodificación

Tokens discretos:Representar salidas como entradas específicas del diccionario (por ejemplo, VideoPoet).
Embebidos continuos:Usar señales "suaves" para guiar generadores especializados de bajo nivel (por ejemplo, NExT-GPT).

La regla de proyección

Para que un modelo de lenguaje procese un sonido o un objeto 3D, la señal debe proyectarse en el espacio semántico existente del modelo para que se interprete como una "señal de modalidad" en lugar de ruido.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?

Token Dropping

Two-layer MLP or Resamplers (e.g., Q-Former)

Softmax Activation

Linear Projection

Question 2

What is the primary role of ImageBind or LanguageBind in this architecture?

To generate text from images

To compress video files

To create a Unified/Joint representation space for multiple modalities

To increase the LLM context window

Challenge: Designing an Any-to-Any System

Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.

You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.

Step 1

Select the correct encoder for the input signal.

Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.

Step 2

Apply a Projection Layer.

Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).

Step 3

Generate and Decode the output.

Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.